kettle入门教程 |
您所在的位置:网站首页 › kettle 公式 › kettle入门教程 |
一、下载与安装 官网地址大概700~800M,下载好解压缩即可。当然,要求JDK环境(似乎有自带) 二、任务(.kjb)与转换(.ktr)简单地说,一个转换就是一个ETL的过程,而作业则是多个转换、作业的集合,在作业中可以对转换或作业进行调度、定时任务等(据说定时不好用,可以通过其他方式,比如linux的crontab命令,不过实际使用中,这个指令也不大好使,有待查看日志探明原因。)我在实际过程中,写的流程不是很复杂,当数据抽取需要多步骤时,分成多个转换,在集合到一个作业里顺序摆放,然后执行即可,不放到作业里的话,要对多个转换依次执行命令,比较麻烦。 三、煎锅、勺子、厨房是不是莫名其妙,以为走错了片场?然而这是几个重要的工具名称。 1)勺子-Spoon.bat/spoon.sh图形界面工具,就是启动上图主界面的命令行。这个界面应该是JavaFX做的。这个用来在有图形界面的系统下写任务(如何通过命令行写我不知道,并且我怀疑没有这个可能……),如Windows,写好后,也可以通过该工具进行执行,调试。这个工具最大的问题是启动很慢,并且如果修改了数据库连接的配置,只有重新启动才能生效了。这时候就体现了命令行的优越性。 转换窗口左边有很多控件可供选择,上图展示了我在使用中经常用到的几个控件。 执行SQL脚本:可以直接在控件里写SQL,并指定执行的库。 表输入:通过查询数据库的表来获取输入数据流。该控件中也可以写SQL 表输出:将数据流映射到指定的表中。 在这里,指定了数据库连接(后叙)和目标表之后,可以勾选指定数据库字段,如此下方的数据库字段标签的内容就成了可编辑状态(因为表输入和表输出的数据表结构不可能完全一致,通过这样可以将A表列对应到指定的B表列中) 发送邮件:转换完成后,通过指定的邮箱发送邮件到指定的联系人。 这两个指令都可以套用在下面这个命令上 ./kichen.sh -file ./YourScirpts/demo.kjb ./pan.sh -file ./YourScripts/demo.ktr作业脚本的后缀是kjb,转换脚本的后缀是ktr这是最简单的执行方法,有时候,可能需要将日志输出到某个地方,可以加-log参数,不过我在实际使用中,是让运维将指令运行结果日志保存的,而不是通过这个工具,所以暂且忽略(不错,能省事儿则省事儿……)还有比较高级的用法,即命令行参数替换。在脚本中(比如上图中,表输入的那个地方),可以添加变量: select * from testTable where date=${datetime}并勾选控件下方的“替换SQL语句里的变量”,保存,双击转换界面空白处,打开转换属性设置窗口: 在命名参数标签下填入命名参数名称,使用如下命令: ./pan.sh -file YourScripts/test.ktr -param:datetime="'2015-01-01'"实际应用中,通过python计算日期,再调用shell,即可以实现根据指定日期循环执行脚本了。 import datetimeimport os date1=datetime.datetime(2016,11,7) date2=datetime.datetime(2016,11,4) #5号执行的任务应该处理4号的while date1 > date2: temp = date1- datetime.timedelta(days=1) print "处理日期:>>>"+temp.strftime("%Y-%m-%d")+"~"+date1.stftime("%Y-%m-%d") os.system("/usr/local/data-integration/pan.sh -file /usr/local/data-integration/Demo/test.ktr -param:date1=\"'"+temp.strftime("%Y-%m-%d")+"'\" -param:date2=\"'"+date1.strftime("%Y-%m-%d")+"'\"") date1 = temp print ">>>处理完成 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |